扫描下载APP
其它方式登录
唐杰提出AI发展的关键转折在于从单次对话能力转向长周期任务执行能力,即AI需具备持续规划、试错、判断与交付复杂多步任务的能力;这一能力突破将推动AI从工具升级为劳动力,重塑软件开发、法律、金融等行业执行层,并催生LLM OS新范式,同时引发监管与责任归属等深层挑战。
Anuttacon公司经历重大战略调整,从多模态AI转向集中资源发展大语言模型(LLM)和Agent技术,团队重心回流国内,核心人员变动显著。
GPT之父Alec Radford团队发布名为talkie的130亿参数大模型,其训练数据严格限定在1931年之前的英语文献(共2600亿token),未接触任何现代编程资料,却能通过少样本学习写出Python代码并理解逆函数等抽象概念,旨在验证大模型是否具备真正推理能力而非简单背诵。
文章深入探讨AI领域中'Skill'(技能)技术的本质、能力边界与认知局限,指出Skill可高效蒸馏陈述性知识和程序性规则(L1层),对风格化表达(L1.5)效果有限,但无法编码专家级隐性判断力(L2层的Utility)。通过多组实证研究揭示其在医疗等领域提升显著,在软件工程等高激活领域增益微弱,甚至有害,并指出反蒸馏工具的存在印证了语言表达的精度天花板。
斯坦福、伯克利与英伟达联合提出LLM-as-a-Verifier验证框架,通过提升评分粒度、重复验证和评估标准分解,解决传统LLM-as-a-Judge在长时序任务中评分粗糙、平局率高(27%)的问题,在Terminal-Bench和SWE-Bench Verified等AI编程基准上取得SOTA性能,显著提升Agent准确率与稳定性。
a16z创始人Marc Andreessen在播客中系统阐述AI发展本质:非突发奇点,而是80年技术积累后的实用化拐点;强调agent架构(LLM+shell+filesystem等)正引发比chatbot更深层的软件范式变革;指出交互方式将转向agent-first,人机关系、编程范式、基础设施瓶颈(GPU/CPU/memory)、开源与边缘推理价值,以及安全、身份、支付、制度阻力等现实挑战共同构成AI落地的关键图景。
AI for Science公司奥明星程完成超亿元A轮融资,聚焦AI驱动的机制建模、问题定义与探索式推理,构建面向生命科学的AI科学家能力体系;其基于cfDNA片段组学与自研大模型的乳腺癌早筛智能体OS-TuFEst-BRCA实现92%-95%灵敏度及96.2%漏诊识别率,获《Nature Communications》发表及国家癌症中心专家共识强推荐。
OKX全球商务官在2026香港Web3嘉年华主论坛提出'Onchain OS'概念,强调AI Agent正从工具升级为链上核心用户,需构建安全、可扩展的操作系统支持Agent自主执行交易、支付与协作;该系统基于OKX Wallet API能力,集成X Layer结算层与Plugin生态,目标是让单个用户借助多Agent实现机构级投资与风控能力。
文章探讨AI驱动工具与AI兼容工具的本质区别:前者将大模型强行嵌入为人设计的传统架构(如Notion、Google Docs),导致高摩擦、低协同;后者从底层重构数据模型与API,以LLM为先,实现无感协调、语义检索与自动知识管理,解决代理规模化下的文档爆炸与检索失效问题。
K2 Lab(攀峰智能)作为AI Native初创公司,聚焦海外内容电商场景,推出KOC Agent OS产品Moras,实现选品、创作、发布、分析全链路自动化;强调AI原生开发范式(Harness Engineering、AI Coding率达99%)、按效果付费的商业模式及垂直领域多模态模型训练,目标抢占A2A电商Agent OS生态位。
攀峰智能(K2 Lab)完成数千万元天使轮融资,聚焦内容电商场景,推出Agent OS系统Moras,服务于TikTok达人和商家,实现选品、脚本生成、剪辑、发布及数据分析等全流程自动化;强调AI‘雇佣’人类的新商业模式,自研电商多模态理解模型,构建A2A商业闭环,并探索Personal AI与Agent自主开发范式。
文章聚焦AI从语言大模型(LLM)向智能体(Agent)演进过程中的范式跃迁,指出APEX-Agents基准测试揭示了当前智能体在真实任务场景中表现低迷、稳定性差、成本畸高及数据饥渴等核心瓶颈,强调评测标准需从静态智力转向动态生产力,AGI远未成熟。
维基百科于3月26日通过投票实施新政策,明确禁止使用大语言模型(LLM)生成或重写文章内容,仅允许其作为辅助工具提供经人工审阅的编辑建议,旨在防范AI幻觉导致的错误信息,维护知识准确性与人类编辑主权。
京东加速AI全栈布局,开源JoyAI-LLM Flash大模型,推出‘龙虾’智能体并实现调用量激增455%;数字人技术覆盖7万商家、带动百亿GMV;具身智能项目JoyInside联合近百品牌,计划两年内建成全球最大的真实场景视频数据库,构建覆盖云、端、物理世界的AI闭环。
Unsloth AI 推出开源无代码本地可视化工具 Unsloth Studio,显著提升大语言模型微调效率:训练速度翻倍、显存节省70%,支持在单块消费级显卡(如RTX 4090/5090)上微调8B至70B参数模型,并集成数据处理、强化学习(GRPO)、一键导出部署等功能。